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Resume - On introduit une representation en scattering pour T analyse et la classification des sons. Elle est localement invariante par translation, 
stable par deformation en temps et en frequence, et elle capture les structures harmoniques. Cette representation en scattering pent s’interpreter 
comme un reseau de neurones convolutif, calcule en cascadant une transformee en ondelettes dans le temps, et le long d’une spirale harmonique. 
Nous etudions son application pour T analyse des deformations du modele source-filtre. 

Abstract - We introduce a scattering representation for the analysis and classification of sounds. It is locally translation-invariant, stable to 
deformations in time and frequency, and has the ability to capture harmonic structures. The scattering representation can be interpreted as a 
convolutional neural network which cascades a wavelet transform in time and along a harmonic spiral. We study its application for the analysis 
of the deformations of the source-filter model. 


1 Introduction 

La variabilite des signaux acoustiques naturels peut se mo- 
deliser comme une action de deformation localisee en temps 
et en frequence. Ainsi, la classification de sons repose essen- 
tiellement sur la constmction de representations qui demeurent 
stables a ces deformations, tout en offrant une bonne discri- 
minabilite entre signaux de classes differentes. En cascadant 
convolutions locales et non-linearites, les representations en re- 
seaux de neurones parviennent a combiner ces deux qualites ; 
mais elles sont entierement adaptees aux donnees, et requierent 
par consequent une vaste base d’entrainement pour atteindre 
des performances satisfaisantes. 

Dans cet article, nous proposons une representation en cas¬ 
cade, dite transformee de scattering, dont 1’architecture est si- 
milaire a un reseau de neurones, mais sans besoin d’optimiser 
les unites de convolution. On tire parti de la geometrie natu- 
relle des sons pour construire une description stable aux de¬ 
formations et qui preserve 1’information transitoire autant que 
possible. 

[]Un enjeu important de cette approche reside dans la pre¬ 
servation de la structure harmonique des partiels, y compris 
lorsque celle-ci est sujette a des variations d’amplitude, de hau¬ 
teur et de timbre. Cette structure harmonique en peigne est tres 
irreguliere sur un axe log-frequentiel, et done particulierement 
difficile a caracteriser dans un contexte polyphonique. 

Pourtant, en enroulant I’axe log-frequentiel en une spirale, 
de sorte que les partiels sur des octaves consecutives se trouvent 
alignes, on fait apparaitre la regularite de I’enveloppe spec- 
trale comme une dimension radiale. Une fois specifiees les va- 
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Eigure 1 - L’ondelette en spirale est un produit d’ondelettes 
en temps, log-frequence, et octave. Les oscillations bleues et 
vertes representent la partie reelle et la partie imaginaire. L’en- 
veloppe rouge represente le module complexe. Les partiels 
d’un son harmonique, representes en gris, suivent un motif 
d’alignement radial. 

riables de temps, de chroma, et d’octave, le scattering en spirale 
consiste a cascader trois decompositions en ondelettes selon 
chacune de ces variables, puis a appliquer le module complexe. 


2 Transformees sur le scalogramme 

Dans cette section, on definit progressivement la transformee 
en scattering sur la spirale comme une extension de la transfor¬ 
mee en scattering temporelle et de la transformee en scatte¬ 
ring jointe temps-frequence. Les trois transformees partagent 
le meme formalisme. 















2.1 Scalogramme et scattering temporel 


On commence par construire une transformee en ondelettes 
couvrant les frequences audibles. Soil un filtre passe-bande 
a de frequence centrale reduite 1 et de largeur de bande l/Q. 
On dilate la transformee de Fourier ^(cc) de par des fac- 
teurs de resolution Ai = ou ji G Z et xi G {1... Q} : 

(w) = ^(Ai“^w), soil -ipXi (t) = (1) 

Chaque t/^Ai {t) est un filtre passe-bande de frequence centrale 
Ai, de largeur de bande Ai/Q et de support temporel 2(5/Ai. 
On construit done un banc de fibres a Q constant, capable de 
produire une representation temps-frequence stable et parcimo- 
nieuse da. On choisit Q = 16 dans les figures de cet article. 

Soit * I’operateur de convolution sur la variable temporelle 
t. On appelle scalogramme de x{t) le module de la transformee 
en ondelettes (x * t/aJ, indexe par le logarithme en base 2 de 
la frequence acoustique Ai : 


Xi{t,log 2 Xi) = \x*'lpx^\{t). (2) 

La transformee a Q constant (CQT) Six correspond a un fil- 
trage passe-bas de par une fenetre 4>t de support T : 

Six{t, log 2 Ai) = * 0 T = 1 ^ * V^Ai I * 0 T- (3) 


Six est ainsi rendu invariant a toute translation inferieure a T. 
Toutefois, lors de ce filtrage passe-bas, les modulations d’am¬ 
plitude dans de frequence superieure a 1/T sont detruites. 
Afin de les restaurer, Anden et Mallat d ont introduit la trans¬ 
formee de scattering comme le scalogramme du scalogramme : 


a;2(i,log2 Ai,log2A2) = \xi*ipx2 


k * t/’Ai I * V’Aa 


(4) 


Les ondelettes ont un facteur de qualite egal a 1, mais 

nous choisissons de conserver la notation ^ par souci de sim- 
plicite. Chaque ondelette 7 /A 2 (^) ^ POur frequence centrale A 2 
et pour support temporel 2 /A 2 . Comme dans 1’equation le 

filtrage de X 2 par ^t(^) cree une representation S 2 X invariante 
a la translation jusqu’a T : 


S'2a;(t,log2 Ai,log2 A 2 ) 


k *i^xA* V’a2 


* <t>T- (5) 


2.2 Transformee jointe temps-echelle 

La transformee de scattering definie a 1’equation 0 decom¬ 
pose chaque bande de frequence Ai independamment, et ne 
pent done pas capturer la coherence de structures sonores temps- 
frequence, telles que les variations de hauteur. Pour y remedier, 
Anden m a redefini les ondelettes comme des fonc- 

tions du temps et de la log-frequence, indexees par la paire 
A 2 = (cf, /3), ou Cf est une frequence de modulation en Hertz et 
(3 est une frequence sur les deplacements en log-frequence : 

V’A2(i>log2 Al) = V’a(i) X ■*/'/3(log2 Ai). (6) 

La variable p est mesuree en cycles par octave; elle pent prendre 
des valeurs positives ou negatives, ce qui permet de represen¬ 
ter des changements de hauteur montants ou descendants. Le 



Figure 2 - Deux ondelettes en spirale t/as etalees sur le plan 
temps-frequence, presentant des A 2 = (cf, /3, 7 ) differents et 
une localisation differente sur le scalogramme. A gauche : 
a~^ = 120 ms, = —0.25 octave, 7 “^ = +2 octaves. 
A droite : a~^ = 60 ms, = -hO.5 octave, 7 “^ = 

—4 octaves. On a affiche la partie reelle des coefficients. Le 
noir correspond a des coefficients positifs et le blanc a des co¬ 
efficients negatifs. 

support temporel de 7 /A 2 ^st maintenant 2 /a, tandis que son 

support log-frequentiel est 2/(3. On note * les convolutions 
selon I’axe log-frequentiel. La transformee en scattering est 
etendu au cadre «joint» temps-echelle en rempla 9 ant t/as par 
(t/c X ' 0 / 3 ) dans 1 ’equation (|^ : 

t X 1 

a:2(^,log2 Ai,log2 A 2 ) = Ixi >Kt/)A2l = |a;i * ^/sl- O 

Le modele joint temps-frequence correspond a la transfor¬ 
mee « corticate » introduite par Shamma 13 afin de formaliser 
ses decouvertes en neurologie de 1 ’audition. 

2.3 Transformee sur la spirale 

La transformee jointe temps-echelle decrit la variabilite tem¬ 
porelle de hauteur sans recourir a une segmentation prealable. 
Cependant, elle est agnostique a la structure harmonique des 
sons voises. L’evolution de cette structure recele de 1’informa¬ 
tion sur les formants en parole, ou sur les attaques instrumen- 
tales en musique par exemple. On pent la mesurer en comparant 
des partiels voisins sur des echelles en log-frequence allant de 
une a quatre octaves, et ce a chroma fixe. Nous proposons done 
d’etendre la transformee jointe temps-frequence afin d’incor- 
porer les deplacements sur les octaves en conjonction avec les 
deplacements sur les log-frequences voisines. 

Conceptuellement, cela revient a enrouler la variable de log- 
frequence log 2 Ai selon la spirale des hauteurs (voir figure: 
on revele ainsi la variable radiale d’octave ji et la variable an- 
gulaire de chroma Xi. En suivant le meme precede que dans 













les deux transformees definies auparavant, on commence par 
definir une ondelette comme un produit separable d’onde- 
lettes sur chacune des variables a transformer. Dans cet article, 
on a choisi une ondelette gammatone (profil asymetrique) se- 
lon le temps, une ondelette de Morlet (profil symetrique) selon 
les chromas et une ondelette gammatone selon les octaves. 

= '0aW'0/3(logAi)'0^(jl). (8) 

La figure illustre la structure geometrique de 1 ’ondelette en 
spirale dans le plan (t,log2 Ai), pour differentes valeurs 
de A2 = Nous definissons la transformee en spirale 

comme une convolution separable entre le scalogramme 
selon les trois variables de temps f, log-frequence log2 Ai, et 
octave ji = [log2 AiJ (partie entiere): 

X2(t,logAi,logA2) = |xi ^^x2{tAogXi, [logAiJ)|. ( 9 ) 

II se trouve que I’idee consistant a enrouler les hauteurs en spi¬ 
rale est bien connue en theorie de la musique, ne serait-ce que 
par la circularite des noms de notes. Elle a notamment ete etu- 
diee par Shepard et Risset pour construire des paradoxes de 
hauteurs Bl et a ete validee par des imageries fonctionnelles 
du cortex auditif m. 

3 Deformations du modele source-filtre 

Un mod^e de production sonore classique consiste en la 
convolution d’un signal de source glottique e{t) avec un filtre 
de conduit vocal h{t). Dans cette section, on introduit une va- 
riabilite de hauteur et d’enveloppe spectrale par des deforma¬ 
tions temporelles de e et /i. On montre comment les proprietes 
d’harmonicite de e(t) et de regularite spectrale de h{t), enon- 
cees a 1’equation permettent de separer et lineariser ces 

deux vitesses de deformation, sans etape de detection prealable. 

3.1 Resultat principal 


distingues par leurs vitesses respectives de source et de filtre. 
Les deux proprietes essentielles qui le sous-tendent sont I’har- 
monicite de e(u;) et la regularite spectrale de /i(cc). 

3.2 Factorisation du scalogramme 

On s’interesse au comportement du modele autour du 
partiel : soient t et Ai tels que Ai est proche de pO{t). Afin de 
pouvoir lineariser 0 (t) et z^(t) sur le support de t/^Ai , on travaille 
sous les hypotheses suivantes : 

(a) ll^/^lloo^Ai/Q (filtre lentement variable), 

(b) ||d(log \h\)/duj\\oo X III/7II00 < Q/Ai (regularite spec¬ 
trale), 

(c) ||^/^||oo<^Ai/Q (source lentement variable) et 

(d) p < QI2 (partiel de rang faible). 

Les egalites ( 12 ) a ( 14 ) sont des approximations de Taylor va- 
lables uniquement dans ce contexte. 

Avec (a), on pent negliger la contribution des partiels p' ^ p 
dans le scalogramme de eg. Avec (b), la localisation temporelle 
de rondelette i^Xi{t) permet de remplacer Taction du diffeo- 
morphisme 0 {t) est remplacee par une homothetie d’un facteur 

\ee * = \'>p\XP^{t))\. ( 12 ) 

De meme, avec (c). Taction de r]{t) est remplacee par une ho¬ 
mothetie d’un facteur Par ailleurs, avec (d), la localisa¬ 
tion frequentielle de cette meme ondelette permet de remplacer 
Tenveloppe spectrale h{uj) par une constante autour de la fre¬ 
quence Ai/77(t) : 

( 13 ) 

En menant ces deux linearisations conjointement, on aboutit a 
ke.77 UaiIW = |^Ai(p^(i))| X h ■ ( 14 ) 


Soit S(t — 27 rn) un signal harmonique « source » et soit 
t 0 (t) un diffeomorphisme du temps ; on definit eo{t) = (eo 
0 ) (t) la source deformee. De meme, on compose un « filtre » 
h{t) et un diffeomorphisme t 1-^ r]{t) pour definir hr^{t) = 
{h o Le modele source-filtre deforme est le signal 


xe,'n{t) = {ee * ( 10 ) 

La derivee 0 {t) de 0 {t) induit un changement de hauteur, 
tandis que 77(f) provoque une dilatation locale de Tenveloppe 
spectrale \h{uj)\. Nous allons montrer que, pour 0 {t) et 77 suf- 
fisamment reguliers sur le support des ondelettes de premier 
ordre 7/1 a 1, les maxima locaux dc x2 sont rassembles sur un 
plan de Tespace (a, 7) des coefficients de scattering en spi¬ 

rale. Ce plan satisfait T equation cartesienne 


a 


m 

m 


^7=0. 


(11) 


Dans un contexte polyphonique, ce resultat signifie que des 
sons se chevauchant en temps et en frequence pourraient etre 


3.3 Harmonicite et regularite spectrale 


Les ondelettes 7/)^ et 7/)^ sont con9ues pour etre orthogonales 
aux fonctions affines. Or T harmonicite de e0(t) implique que 
son scalogramme est une constante le long de la variable d’oc¬ 
tave ji, et ce pour tout diffeomorphisme 0 {t). De plus, la re¬ 
gularite spectrale de hr^{t) implique que son scalogramme est 
quasi lineaire le long de la variable de chroma xi- Ces deux 
proprietes s’ecrivent 


lee * ipx:, I * 


' 0 et 


|ee UaJ V’/3 


0 . 


La definition du scattering en spirale se factorise alors en 




V’A2 


7(' 


t I Xi 
ee * 


0 ' 


X (111,, * V’Ai I * 


V’ 7 ) j u 


( 15 ) 

( 16 ) 


ou les operateurs *, et designent des convolutions en 
temps, log-frequence, et octave respectivement. 






3.4 Extraction de frequences instantanees 


Pour terminer, on constate que la phase du scalogramme de 

la source \ee * V^Ai | * est /3 x (log 2 Ai — log 2 (p^(t)). En 
derivant cette quantite a log 2 Ai fixe, on trouve une frequence 
instantanee egale a De meme, la frequence ins- 

tantanee du scalogramme du filtre apres convolution selon les 
octaves est —^f}(t)/r](t). En supposant que 


a > 


et a> 



m 


r]{t) 


les enveloppes de ces deux convolutions sont approximative- 
ment constantes sur le support de On conclut avec la 

formule approchee suivante pour les coefficients de scattering 
en spirale du modele source-filtre deforme : 


a:2(i,logAi,log A2) 


\ee*'ipxi\ 


\K * 'ipxi I * -Ip-, 


Oitf v{t)\ 


(18) 


Le spectre (cc) | de (^) est une bosse centree en a. L’equa¬ 
tion est une consequence immediate de la formule ci-dessus. 
Ce resultat reste vrai apres filtrage passe-bas par a condi¬ 
tion que les vitesses 0/0{t) et fj{t)/f](t) aient des variations 


relatives lentes devant T : 




"e{t) e{t) 

et 


_ 7 ^ 


e{t) 9{t) 

i>{t) 

!>(t) 


< T 


-1 


(19) 
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log 2 Ai 

L-1 -O- N 


log2 Ai 


L-l-O-N 



/5 > 0 ; 7 > 0 

log2 Ai 

L-l-O-N 


3.5 Illustration numerique 

La figure|^illustre le comportement temps-frequence de cer- 
tains coefficients de scattering en spirale pour le mot anglais 
lion, prononce /'laion/ . On constate que la syllabe /'lai/ active 
en particulier les coefficients tels que /3 > 0 , 7 > 0 (hauteur 
montante, timbre montant) tandis que /ion/ active les coeffi¬ 
cients tels que /3 < 0 , 7 < 0 (hauteur descendante, timbre 
descendant). Ces signes sont correles avec les sens de defor¬ 
mations du modMe source-filtre 0{t) < 0 et ^(t) <0 pour la 
syllabe /'lai/, 0(t) >0 et ri{t) > 0 pour la syllabe /ion/. 

4 Conclusion 



_ t _ t 

/5<0;7<0 /5<0;7>0 

Eigure 3 - En haut, un scalogramme xi(t, log 2 Ai) du mot 
anglais lion (prononce /'laion/ ). En bas, coefficients de scatte¬ 
ring de ^ 2(7 log 2 Ai, log 2 A 2 ) en fonction du temps t et de la 
log-frequence log 2 Ai, pour A 2 = fixe avec a~^ = 

120 ms, I3~^ = ±1 octave, 7 “^ = ±4 octaves. La clarte est 
inversement proportionelle a 1 ’amplitude des coefficients. 


Le modele en spirale presente ici est bien connu en musique 
et en psychologie experimentale. Cependant, les methodes exis- 
tantes en traitement du signal ne tirent pas avantage de sa ri- 
chesse : elles representent la hauteur sur une ligne (MECC) ou 
sur un cercle (vecteurs de chroma). Dans cet article, on a mon- 
tre comment la transformee de scattering sur la spirale caracte- 
rise les transitoires des sons harmoniques. 
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